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JE 3E: 为 了 解决 语音 识别 中 基于 卷 积 位 置信 息 的 混合 式 注 意 力 机 制 无 法 提取 长 期 有 效 位 置信 息 的 问题 ， 提 出 了 一 种 
捕捉 长 期 有 效 位 置信 息 的 新 型 混合 式 注意 力 机 制 。 首 先 ， 对 当前 时 刻 生 成 的 注意 力 得 分 作 卷 积 来 提取 多 通道 特征 图 ， 
并 通过 全 局 平均 池 化 来 得 到 恒定 维度 的 特征 向 量 ; 接着 ， 引 入 长 短期 记忆 网 络 (long short-term memory，LSTM) 单 元 作 
为 外 部 记忆 模块 ， 并 以 生成 的 特征 向 量 作为 输入 ,生成 下 一 时 刻 的 位 置信 息 向 量 ; 最 后 , 结合 经 典 的 LAS(listen, attend 
and spell) 模 型 来 验证 提出 方案 的 有 效 性 。 实 验 结果 表明 ， 提 出 方案 能 充分 考虑 过 去 多 个 时 刻 的 注意 力 得 分 。 相 对 于 基 
于 卷 积 位 置信 息 的 LAS 模型 ， 提 出 方案 在 纯净 和 含 噪 语音 数据 集 上 取得 的 标签 错误 率 分 别 减少 了 1.8% 和 2.21%。 
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Research on speech recognition based on hybrid attention mechanism 


- : Li Yeliang, Zhang Erhua', Tang Zhenmin 
(School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210094, China) 


Abstract: In speech recognition, the convolution location-based hybrid attention mechanism can not extract location information 
that can be valid over long term. This paper proposed a new hybrid attention mechanism to solve this problem. Firstly it 
convolved with the attention score generated for the current time to extract multi-channel features, followed by obtaining the 


feature vectors of constant dimensions via global average pooling. Then it introduced a LSTM (Long Short-Term Memory) unit 


g h - as the external memory module and used the generated feature vectors as input to generate the location vectors for the next time 


point. Finally this paper used the classic LAS (Listen, Attend and Spell) model to verify the effect of the new hybrid attention 


mechanism. Experiment results show that the new hybrid attention mechanism can take full consideration ofthe attention scores 
at many past time points. Compared to the convolution location-based LAS model, the label error rate of the proposed scheme 
on pure and noisy speech datasets is reduced by 1.896 and 2.21%, respectively. 


Key words: convolution; attention mechanism; global average pooling; LSTM; LAS model 


一 种 是 CTC(connectionisttemporal classification) PRW; 另外 一 
种 是 基于 注意 力 机 制 外 的 编码 器 一 解码 器 模型 。 基 于 注意 力 机 

近年 来 , 深度 神经 网 络 (deep neural network, DNN) 在 图 像 、 制 的 编码 器 一 解码 器 模型 是 目前 语音 识别 领域 的 一 个 研究 方向 。 
机 器 翻译 、 语 音 识别 领域 取得 了 广泛 的 应 用 叫 。 过 去 的 深度 一 般 来 说 , 以 LSTMW" 或 GRU(gated recurrent unit) 13x 25 3 yq% 
经 网 络 ， 作 为 一 个 组 成 单元 通常 与 隐 马 尔 可 夫 模 型 (hidden ”经 网 络 作 为 编码 器 和 解码 器 ， 用 编码 器 来 处 理 变 长 的 特征 序列 
Markov model，HMM) 结 合 组 成 DNN-HMM 声学 模型 B71， 但 生成 隐 售 状态 序列 ， 在 解码 阶 通过 引入 注意 力 机 制 ， 解 码 


Till 


0 5l 


B 
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这 些 组 成 单元 却 是 分 别 独立 训练 的 ， 没 有 考虑 单元 之 间 的 相互 ”器 每 一 时 刻 的 输出 直接 利用 编码 器 每 一 时 刻 的 隐 含 状态 信息 ， 
关系 来 进一步 提高 模型 性 能 。 最 近 ， 端 到 端的 语音 识别 模型 最 终生 成 相应 的 标签 。 
于 其 架构 简单 、 训 练 方便 而 受到 了 广泛 关注 。 不 同 于 DNN- 文献 [9] 给 出 了 基于 注意 力 机 制 的 编码 器 一 解码 器 模型 在 


HMM 模型 , 其 不 需要 输入 数据 和 给 定 标 签 在 时 间 上 一 一 对 齐 ， 语音 识别 领域 的 第 一 个 结果 ， 它 把 逐 帧 提取 的 
并 且 其 本 身 作 为 一 个 整体 架构 来 进行 训练 优化 ， 故 使 得 语音 识 fMLLR(feature space maximum likelihood linear regression) 特 征 
别 率 得 到 很 大 的 提升 。 目 前 主流 端 到 端 语 音 识别 模型 有 两 种 ; 序列 作为 编码 器 的 输入 ,音素 序列 作为 输出 ， 最 终 在 TIMIT 数 
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大 ， 按 照 概率 链 式 法 则 公式 表达 如 
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直 指 代 空 格 和 未 知 字符 。 模 

标 函 数 为 使 得 输出 序列 关于 输入 序列 的 条 件 概 率 最 
下 : 
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组 成 Listener， 从 输入 序列 x 
h = Listen(x) 
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图 1 所 示 , 通常 


= pBLSTM([h};", hia ], i) 


其 中 : on) 指 的 是 第 j 层 第 i 个 时 刻 的 pBLSTM 


状态 ， 
前 一 个 时 刻 的 pBLSTM 单元 的 输出 状态 作为 当 
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是 一 个 基于 注意 力 的 LSTM Transducer[614] 。 
Transducer 于 每 一 步 输出 一 个 当前 字符 关于 序列 x 及 在 这 之 前 


Speller 


所 有 字符 的 条 件 分 布 , 即 POixsorD…:yD。 该 分 布 是 一 个 关于 解 

码 器 当前 时 刻 输 出 状态 s; 及 上 下 文 c 的 函数 。 解 码 器 状态 通过 

LSTM 生成 ， 而 上 下 文 c; 则 由 注意 力 机 制 产生 ， 具 体 公式 表达 
如 下 : 

P(y|x)= AttendAndSpell(y,h) (4) 

5; = LSTM([Y;1,c;1},8;.1) (5) 

c, = AttentionContext(s,,h) (6) 

PO; | yas») = D) 


CharacterDistribution([s;, c;]) 


其 中 : CharacterDistribution 是 带 有 MLP 的 softmax |E 
si 和 ci 的 拼接 向 量 作为 输入 。 


H, 其 以 


Speller 
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Fig.1 LAS model framework 
注意 力 机 制 
注意 力 机 制 使 得 解码 器 每 一 时 刻 预 测 输 出 用 到 的 上 下 文 信 
息 是 与 当前 输出 有 关系 的 上 下 文 ， 即 通过 对 编码 器 每 一 时 刻 的 


1.2 


输出 状态 打分 ,然后 根据 得 分 对 输出 状态 加 权 求 和 得 到 上 下 文 。 
文献 [14] 给 出 注意 力 机 制 的 一 般 表达 形式 : 

a; = Attend(s, 0; h) (8) 

6i Nes j ©) 


式 (8) 确 定 的 注意 力 模型 通常 称 为 混合 式 注意 力 模型 。 将 
式 (8) 中 的 wx , 忽略， 就 得 到 基于 内 容 的 注意 力 模型 09。 式 (6) 也 
是 基于 内 容 的 注意 力 模型 ， 但 与 式 (8) 不 同 ，w 是 由 本 时 刻 的 输 
出 状态 s: 和 编码 器 输出 状态 序列 hh 决定 的 ,， 这 种 则 Luong 注意 
。 基 于 内 容 的 注意 力 模型 存在 一 个 缺陷 ， 由 于 一 段 音频 中 
存在 大 量 的 重复 帧 ， 所 以 生成 的 注意 力 得 分 会 因为 内 容 相 近 而 
值 相 近 ， 可 能 会 导致 某 一 时 刻 的 解码 输出 过 于 依赖 相同 含义 的 
帧 。 为 了 解决 这 个 问题 , 文献 [14] 引 入 了 前 一 时 刻 的 注意 力 得 分 
的 卷 积 结果 作为 位 置信 息 来 对 该 时 刻 的 注意 力 得 分 进行 调整 。 
具体 方法 是 增加 一 个 矩阵 F, 并 让 它 和 前 一 时 刻 的 得 分 做 卷 积 
f-F*a, (10) 


| 


然后 再 重新 计算 wx : 
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e; — w'tanh(Ws, , +Vh,+Uf b) (Q1) 
| exp(e;) 
yj (12) 
> exple) 
k=1 
2 ”新 型 混合 式 注意 力 机 制 


上 述 提 到 的 基于 卷 积 提取 位 置信 息 的 混合 式 注意 力 机 制 使 
得 模型 性 能 得 到 一 定 程度 的 提高 ， 但 这 样 做 的 局 限 性 是 卷 积 不 
能 综合 过 去 多 个 时 刻 的 注意 力 得 分 来 得 到 更 准确 的 位 置信 息 。 

与 文献 [14] 不 同 , 本 文通 过 引入 LSTM 来 解决 这 一 问题 。 
是 RNN 的 一 种 特殊 类 型 ， 可 以 更 好 地 学 习 长 期 依赖 信息 。 
LSTM 通过 特意 的 设计 来 避免 梯度 消失 的 问题 ， 记 忆 长 共 
是 LSTM 的 默认 行为 ， 而 非 需要 付出 很 大 的 代价 才能 获得 的 能 


力 。 图 2 给 出 了 LSTM 单元 的 构造 图 。 原 生 的 RNN 随 着 时 间 
的 推移 ， 后 面 的 时 间 节 点 对 前 面 时 间 节 点 的 感知 力 下 降 ， 这 会 
导致 长 期 历史 信息 无 法 充分 利用 。 而 LSTM 通过 引入 “细胞 ” 
来 更 好 地 记 住 长 期 依赖 的 信息 ， 同 时 引入 “ 门 ” 机 制 来 对 历史 
信息 和 当前 输入 信息 进行 筛选 而 产生 更 好 的 输出 状态 。 文 献 [7] 
给 出 了 常规 的 LSTM， 具 体 公式 如 下 : 

i, =0(W x, -W,h, +b) (13) 

f, *o(W,x, + W,h,,- b,) (14) 

c, = fe, , t itkanh(W, x, -W, h, | b.) (15) 

o, =0(W x, - W, h, +b,) (16) 

h, = otanh(c,) (17) 


其 中 : o 指 代 sigmoid 函数 ; ii、f、o1 分 别 指 代 输 入 门 、 遗 忘 门 
和 输出 门 ;， ct 和 hi 别称 为 细胞 状态 和 隐 含 状态 ， 其 中 hi 作为 
LSTM 在 每 一 时 刻 的 输出 。 


数 ( 式 (13)~(17)) 便 可 生成 下 


Fig.2 Structure diagram of LSTM unit 
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F 始 时 刻 的 输 
fi beam, 在 每 一 个 时 刻 , 用 词汇 表 中 的 每 个 
局 部 假设 路 径 ， 然 后 根据 


解码 。 


H 
/ 


的 局 部 假设 路 径 集 
单词 扩大 beam FÅ 


日 记号 sos 1 


的 每 条 


FE 为 解码 器 玫 


入 ， 


算法 进行 
维持 p 大 小 


前 的 局 部 


假设 路 径 对 其 剪 枝 并 保留 概率 最 高 的 6 条 路 径 ， 直 到 某 条 路 径 


以 eos 结 


4 ”实验 及 分 析 
4.1 实验 方法 
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新 型 的 混合 式 注 意 力 机 制 具体 公式 表达 如 下 ; 本 文 分 别 在 纯净 和 含 噪 的 数据 集 进行 两 组 对 比 实验 来 评估 

e, = q tanh(W,s, + W,h,*-W, m,*b) (18) 提出 的 方案 。 纯 净 语 音 数据 来 自 于 Voxforge051， 抽 取 同 一 人 的 

i s EM a9) 1.138 组 语音 样本 作为 数据 集 ， 并 随机 划分 910 组 语音 样本 为 

S pino 训练 集 ， 剩 余 样本 为 测试 集 。 在 每 一 段 语音 数据 中 加 入 来 自 

NOISEX-92P9 数 据 库 的 工厂 噪声 便 能 生成 相应 的 含 噪 语音 ， 其 

c - ah, Q0) 中 纯净 语音 信号 和 噪声 信号 的 平均 信 品 比 约 为 7dB。 本 实验 的 

PN Gi 对 比 模型 分 别 是 BLSTM-CTC HRUN, IEFATA BS B 

p; = GlobalAveragePooling( f,) (22) 码 器 一 解码 器 模型 09、LAS 模型 和 基于 卷 积 位 置信 息 的 LAS 模 

m;,, = LSTMUnits( p,,m,) (23) 型 。 其 中 基于 卷 积 位 置信 息 的 LAS 模型 是 LAS 模型 的 一 个 改 

其 中 : ey 计算 的 是 解码 器 输出 s; 和 编码 器 某 一 时 刻 的 输出 状态 进 ， 即 在 注意 力 机 制 提取 上 下 文 信息 的 过 程 中 加 入 上 一 时 刻 提 

h 的 相似 度 ， 与 式 (11) 类 似 ， 本 文 还 考虑 了 前 一 时 刻 提供 的 位 取 的 卷 积 位 置信 息 ， 加 强 该 时 刻 提取 的 上 下 文 的 合理 性 。 该 模 

置信 息 mi;。 通 过 对 ej 进行 softmax 正则 化 便 可 得 到 关于 编码 器 型 是 本 实验 比较 的 重点 。 本 实验 以 每 25 ms 作为 一 帧 C10 ms mi 

第 7 个 时 刻 输 出 的 注意 力 得 分 a; ， 最 后 利用 该 得 分 对 编码 器 输 F) 提取 40 维 的 对 数 梅 尔 滤波 器 特征 作为 模型 Listener. 的 输 
出 序列 进行 加 权 平 均 便 可 得 到 上 下 文 ci。 式 (21)~(23) 是 本 方案 入 ， 并 且 对 特征 进行 z-score 标准 化 加 快 模型 训练 速度 。 

的 创新 点 。 由 于 编码 器 的 输出 状态 序列 长 度 是 可 变 的 ， 为 了 能 文本 序列 中 所 有 的 英文 字母 均 转 换 为 小 号， 解码 部 分 考虑 

从 中 提取 有 用 的 位 置信 息 ， 本 文采 用 卷 积 处 理 。 多 个 大 小 为 5 的 符号 为 英文 字母 、 数 字 、 名 号、 有 逗号、 空格 、 引 号 ， 其 他 符 

的 卷 积 核 进 行 卷 积 操作 F *a 提取 多 通道 特征 ， 再 通过 全 局 平 号 用 unk 来 表示 。 每 段 文本 的 开头 和 结尾 分 别 添加 记号 sos 和 


均 池 化 便 可 提取 出 固定 维度 的 向 量 po 最 后 使 / 


] LSTMUnits P5 


于 字母 是 


eos. H 


个 离散 值 ， 所 以 采 / 


j 独 热 编码 将 世 


映射 到 连 
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续 空 间 而 作为 Speller 的 输入 。 器 模型 相 比 ，BLSTM-CTC 在 纯净 和 噪声 测试 集 上 均 取 得 更 低 
对 于 Listener, 使 用 节点 数 为 128 的 BLSTM 从 输入 特征 序 ”标签 错误 率 。 与 CTC 框架 不 同 , 编码 器 一 解码 器 框架 每 一 步 的 
列 中 提取 隐 含 状态 序列 , 再 用 节点 数 为 256 的 pBLSTM 对 其 进 解码 不 仅 基于 从 语音 信号 中 提取 的 上 下 文 信息 ， 还 基于 前 一 时 
行 时 间 维 度 上 的 降 维 。 对 于 Speller， 采 用 2 层 节 点 数 为 128 的 刻 的 解码 信息 。 若 前 一 时 刻 的 解码 出 现 错误 ， 将 会 影响 该 时 刻 
LSTM 进行 解码 。 模 型 参数 以 均匀 分 布 u(-1.0,1.0) 进 行 初始 化 。 “的 标签 预测 编码 器 一 解码 器 模型 尽管 采用 Scheduled Sampling 
为 了 避免 深度 神经 网 络 中 出 现 internal covariate shift, 加 速 模 的 训练 方式 减缓 了 这 样 的 影响 ， 但 却 无 法 完全 消除 。 特 别 是 在 
型 的 收 化 ,对 网 络 中 每 一 层 输入 进行 layernormalization5 变 换 。” 含 噪 测试 集 上 ， 标 签 错误 率 上 的 差距 被 进一步 拉 大 ， 这 从 侧 
本 文采 用 AdamP23 优 化 算法 来 进行 模型 的 训练 ， 其 中 超 参 “反映 了 在 注意 力 机 制 中 加 入 位 置信 息 对 正确 解码 的 必要 性 。 
数 p, 和 p, 均 设 为 0.9, 学 习 速 率 则 设 为 0.003。 采用 指数 衰减 法 
来 调节 学 习 速 率 以 使 模型 在 训练 后 期 更 加 稳定 ， 其 中 衰减 系数 Wl 
设 为 0.55， 误 减 步 数 为 2 000。 
在 推断 阶段 ， 采 用 预测 字母 而 不 是 真实 字母 作为 下 一 时 刻 
的 输入 。 当 输入 的 是 一 个 错误 的 预测 时 ， 则 可 能 会 导致 后 续 每 


B | isy ime ai n i i 
E J 7 
个 时 刻 都 作出 错误 的 预测 ， 因 为 这 可 能 是 训练 阶段 没 见 过 的 状 i 和 


0 335639 


0. 330645 =k- Clean LER(LAS*Conv. Features) 


0.264 0. 266450 
态 分 布 。 为 了 减缓 这 种 影响 ， 采 用 Scheduled SamplingU?! 的 训 tenis $—9—6—6—9—9—9—6—9—9—4—9 
练 方法 ， 即 在 训练 阶段 以 一 定 的 采样 概率 使 上 一 时 刻 的 预测 字 ud 


为 下 zm sk RE 5 > J SS 
母 作为 下 一 时 刻 的 输入 ， 在 本 实验 中 采样 概率 为 23%。 为 了 使 e 


解码 更 加 稳定 ， 在 测试 集 上 采用 beam search 解码 。 IN dl 

4.22 各 模型 的 标签 错误 率 对 比 图 3 使 用 beam search 在 纯净 和 含 噪 测试 集 上 获得 的 模型 解码 对 比 
图 3 给 出 了 不 同 集束 宽度 下 的 模型 解码 对 比 。 可 以 看 出 ， Fig.3 Model decoding comparison using beam search on pure and noisy test sets 

无 论 是 纯净 测试 集 还 是 噪声 测试 集 ， 新 的 模型 在 每 个 beam 表 1 在 纯净 和 含 噪 测试 集 上 的 标签 错误 率 

width 上 都 取得 了 最 低 的 标签 错误 率 (label error rate , LER) P, Table 1 Label error rate on pure and noisy test sets 

表 1 给 出 了 所 有 实验 的 汇总 结果 。 在 纯净 测试 集 上 ， 新 的 模型 model Clean LER Noisy LER 

取得 了 22.06% 的 标签 错误 率 ， 相 比 于 基于 卷 积 位 置信 息 的 的 BLSTM-CTC 24.14% 28.56% 

LAS 模型 减少 了 1.8%; 在 噪声 测试 集 上 , 新 的 模型 取得 了 24.97% Encdec+ConvFeatures 28.15% 33.06% 

的 标签 错误 率 ， 相 比 基 于 卷 积 位 置信 息 的 LAS 模型 减少 了 LAS 26.65% 33.56% 

2.2196. 噪声 的 加 入 使 得 相近 发 音 更 加 难以 区 分 , 基于 卷 积 位 置 LAS-Conv.Features 23.8694 27.1896 

信息 的 LAS 模型 对 上 下 文 的 提炼 仅 能 依赖 于 隐 含 状态 内 容 及 new model 22.06% 24.97% 

前 一 时 刻 注意 力 得 分 提供 的 位 置信 息 ， 故 在 噪声 测试 集 上 的 标 4.3 ”可视化 注意 力 得 

签 错误 率 急速 上 升 。 通 过 使 用 LSTM 单元 蔡 换 卷 积 来 提炼 位 置 图 4 分 别 给 出 了 LAS 模型 ,基于 卷 积 位 置信 息 的 LAS 模型 

信息 ， 充 分 发 挥 了 LSTM 长 期 记忆 的 优势 ， 提 供 的 位 置信 息 更 。 和 新 的 模型 基于 同一 语音 信号 (图 4(d)) 的 注意 力 得 分 可 视 化 对 

加 合理 和 准确 。 新 的 模型 变 得 更 加 鲁 棒 ， 每 一 步 的 解码 ， 不 过 ” ” 比 。 不 难 发 现 ， 对 于 字符 的 解码 ，LAS 模型 的 注意 力 得 分 分 布 


分 关注 内 容 相近 的 隐 含 状态 ， 故 仍 能 维持 较 低 的 标签 错误 率 。 最 稀 玻 (图 (a) 中 的 红 圈 所 示 )， 这 说 明 LAS 模型 的 解码 需要 更 多 

相对 于 基于 卷 积 位 置信 息 的 编码 器 一 解码 器 模型 ， LAS 模 位置 的 内 容 信息 的 帮助 ， 然 而 却 没 有 考虑 到 位 置 的 对 齐 ， 使 得 
型 在 纯净 测试 集 上 取得 的 标签 错误 率 减少 了 1.596: 而 在 噪声 测 ”解码 有 点 模棱两可 。 相 对 于 LAS 模型 ， 其 余 两 个 模型 的 字符 注 
试 集 上 ， 则 高 出 0.5%。 这 表明 金字 塔 BLSTM 的 编码 器 结构 通 — 意 力 得 分 分 布 则 要 更 加 集中 ， 整 体 呈 现 出 单调 性 ， 尤 其 是 新 的 
过 融合 相 邻 帧 的 输出 状态 能 够 减少 解码 过 程 中 需要 注意 的 特征 。 模型 。 这 说 明 模型 解码 时 不 仅 能 找到 相关 内 容 信 息 ， 同 时 考虑 
信息 ， 在 干净 的 语音 训练 数据 上 能 取得 更 好 的 性 能 提升 。 但 该 了 位 置信 息 ， 这 与 前 述 的 理论 分 析 是 一 致 的 。 


m 


结构 鲁 棒 性 相对 较 弱 ， 由 于 在 注意 力 机 制 提取 上 下 文 信息 的 过 5 ”结束 语 
程 中 缺少 位 置信 息 ， 使 得 模型 把 多 余 的 状态 信息 考虑 进来 。 而 
噪声 的 存在 使 得 这 些 多 余 的 状态 信息 对 上 下 文 信息 影响 较 大 ， 本 文 给 出 了 基于 卷 积 位 置信 息 的 混合 式 注 意 力 机 制 的 一 个 
故 在 噪声 测试 集 上 性 能 大 幅度 下 降 。 因 此 ， 理 想 的 情况 是 把 这 ”改进 方案 。 具 体 做 法 是 对 当前 时 刻 生 成 的 注意 力 得 分 作 卷 积 提 


样 的 编码 器 结构 和 混合 式 注意 力 机 制 结合 起 来 提高 模型 最 终 性 取 多 通道 的 特征 图 (通道 数 是 固定 的 ) ， 并 再 作 全 局 平均 池 化 
能 , 正如 新 的 模型 和 基于 卷 积 位 置信 息 的 LAS 模型 所 展示 的 那 。” 来 得 到 恒定 维度 的 特征 向 量 。 引入 一 LSTM 单元 作为 外 部 记忆 
样 。 模块 ， 以 生成 的 特征 向 量 作为 输入 便 能 生成 下 一 时 刻 的 位 置信 

与 原始 的 LAS 模型 和 基于 卷 积 位 置信 息 的 编码 器 一 解码 息 向 量 。 本文 结 合 经 典 的 LAS 模型 来 对 新 方法 进行 评估 。 实 验 
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结果 表明 ， 新 的 模型 在 纯净 和 含 噪 的 语音 测试 集 上 均 取 得 最 低 


的 标签 错误 率 , 充 分 反映 了 LSTM 对 长 


(b)Attention scores distribution produced by LAS model based on 


文本 序列 


李 业 良 ， 等 : 基于 混合 式 注意 力 机 制 的 语音 识别 研究 


期 位 置信 息 的 记 4 


时 间 


(a)LAS 模型 的 注意 力 得 分 分 布 图 


(a)Attention scores distribution produced by LAS model 
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(b) 基 于 卷 积 位 置信 息 的 LAS 模型 的 注意 力 得 分 分 布 


文本 序列 
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(c) 新 的 模型 的 注意 力 得 分 分 布 图 


(c) Attention scores distribution produced by my model 
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(d) 语 谱 图 


(d)Spectrogram of the signal 
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Be 


BLSTM-CTC 模型 在 纯净 和 含 噪 语音 测试 集 上 均 取 得 比 原 
始 LAS 模型 和 基于 卷 积 位 置信 息 的 编码 器 一 解码 器 模型 更 低 


于 同 


speech signal(Fig.4d)) 


语音 信号 (图 4(d)) 的 各 模型 注意 力 得 分 分 布 对 比 


Fig.4 Comparison of attention scores for each model based on the same 


的 标签 错误 率 ， 这 是 因为 编码 器 一 解码 器 模型 在 当前 时 刻 的 入 
码 需要 前 一 时 刻 的 解码 信息 ， 当 前 一 时 刻 的 解码 出 现 错误 时 
会 影响 当前 及 未 来 时 刻 的 解码 。 
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寻找 比 Scheduled Sampling 更 


好 的 训练 方法 来 缓和 该 种 影响 ， 将 是 未 来 的 研究 工作 。 
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